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摘 要 : [目的 /意义 ] 网 络 分 析 作 为 有 效 的 分 析 手 段 与 可 视 化 方式 ,是 数字 人 文 领域 应 用 最 广泛 的 方向 之 一 。 


对 网 络 分 析 


在 数字 人 文 领 域 的 应 用 进行 系统 总 结 与 归纳 ,有 助 于 数字 人 文 研究 人 员 快 速 明确 网 络 分 析 的 能 力 与 局 限 ,以 便 开 


展 更 深层 次 的 研究 实践 。 


[方法 /过 程 ] 采 用 内 容 分 析 法 对 发 表 在 国际 数字 人 文 领域 最 有 影 


5 响 力 的 期 刊 和 国际 数 


字 人 文 会 议 上 近 5 年 的 文章 进行 梳理 与 总 结 , 从 研究 问题 、 spin 网 络 特性 、 网 络 分 析 指 标 4 个 方面 进行 梳理 ,最 


终 提炼 出 网 络 分 析 方法 在 数字 人 文 领域 的 应 用 框架 
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各 分 析 Z2 


。 上 [结果 /结论 ] 该 应 用 框架 包括 三 类 数据 规模 (单一 文本 、 平 
ee CU Nede 
两 种 指标 规模 (全 局 指标 和 局 部 指标 ) 以 及 五 类 指标 类 型 ( 构成、 密度 


间 网 络 、 文 本 关联 网 络 、 文 化 主题 网 络 )、 
\ 中 心 度 、 派系 和 结构 ) 。 


来 ,由 人 文 计 算 (humanities compu- 
ep 而 来 的 数字 人 文 (digital humanities ) 带 来 了 
令 识 范围 内 知识 生产 范式 的 转型 。2016 年 后 ,数字 人 
xe 国 大 陆 也 进入 了 加 速 发 展 阶 段 , 网 络 基 础 设施 
奸诈 和 由 研究 问 题 驱动 的 数字 人 文 研究 之 间 的 边界 逐 
W, 方法 共同 体 " 逐 步 显 现 ”。 网 络 分 析 源 自 网 
络 理论 ， 不 仅 具 有 强大 的 分 析 能 力 ,也 是 数据 可 视 化 的 
-条 有 效 方式 ,近年 来 在 数字 人 文 领域 得 到 广泛 应 用 ， 
成 为 取得 实质 性 进展 最 多 的 方向 之 一 。 

网 络 是 表征 系统 各 部 分 间 联 系 及 交互 模式 的 强大 
工具 ,社会 网 络 (social network ) 是 其 中 之 一 。 社 会 网 
络 分 析 (Social Network Analysis, SNA ) 关注 参与 者 ( 即 
人 ) ,与 数字 人 文 研 究 的 基本 思路 不 谋 而 合 。C. Weth- 
erell 认为 ,虽然 社会 网 络 分 析 对 数据 量 的 要 求 十 分 苛 
刻 ,需要 社会 系统 内 所 有 成 员 之 间 不 同 社会 交互 行为 
的 证 据 信 息 ,但 对 史学 分 析 而 言 ,社会 网 络 分 析 仍 然 有 
着 巨大 潜力 ” 。 社 会 网 络 分 析 主 要 依靠 复杂 网 络 
( complex network ) 分 析 和 可 视 化 技术 对 社会 网 络 节点 


认 知 ,行动 .流量 、 距 离 和 共 现 等 。 

数字 人 文 领域 进行 社会 网 络 分 析 可 以 为 各 种 社会 
关系 提供 精确 的 量化 分 析 , 从 而 为 构建 理论 模型 和 验 
证 命题 提供 社会 化 例证 , 挖 据 出 更 多 隐 含 的 社会 关系 
和 变化 趋势 。 利 用 社会 网 络 分 析 技 术 对 特色 资源 进行 
分 析 和 建 模 ,关注 的 焦点 是 节点 的 获取 与 处 理 \ 关 系 与 
关系 模式 的 确定 ;社会 网 络 分 析 采 用 的 方式 和 方法 从 
概念 上 有 别 于 传统 的 统计 分 析 和 数据 处 理 方法 ,是 探 
索 数字 化 文史 材料 上 人 文 问题 的 新 工具 。 随 着 社会 网 
络 分 析 在 数字 人 文 研究 中 的 逐步 开展 ,人 物 不 再 是 网 
络 中 的 唯一 节点 ,由 文本 ,词语 等 元 素 构成 的 网 络 开始 
被 学 者 们 关注 并 在 研究 中 使 用 。 故 本 文 所 讨论 的 网 络 
不 限于 仅 由 人 物 构成 的 社会 网 络 。 

为 探究 数字 人 文 研 究 中 网 络 分 析 的 使 用 情况 , 明 
确 方法 的 应 用 目标 、 能 力 范围 与 使 用 依据 ,本 文 使 用 内 
容 分 析 法 对 相关 文献 进行 梳理 ,提出 一 个 SNA 方法 在 
数字 人 文 领域 中 应 用 的 结构 框架 ,以 便于 从 方法 论 层 
面 熟悉 网 络 分 析 方 法 ,拓展 网 络 分 析 的 使 用 边界 。 基 
于 此 目的 ,本 文 要 探索 的 核心 问题 是 :四 人 文 资料 上 使 
网 络 分 析 可 以 开展 怎样 的 研究 ;@ 在 此 类 研究 中 ,网 


d 


M 


之 间 的 各 类 关系 数据 进行 定量 或 定性 分 析 ,关注 成 对 
个 体 的 属性 ,常见 的 属性 有 亲属 关系 、 社 会 角色 情感、 


络 由 哪些 节点 与 联系 构成 ;@ 在 网 络 分 析 的 过 程 中 会 
选用 哪些 指标 。 


* 本 文系 国家 自然 科学 基 
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2 研究 设计 
2.1 文献 获取 

本 文 以 数字 人 文 领域 最 有 学 术 影 响 力 的 期 刊 Dig- 
ital Scholarship in the Humanities ( 以 下 简称 DSH) ,以 及 
数字 人 文 国 际 联盟 (Alliance of Digital Humanities Or- 
ganizations) 组 织 举 办 的 数字 人 文大 会 (以 下 简称 DH 
大 会 ) 作 为 主要 数据 来 源 , 收 集 2018 年 至 2022 年 5 年 
收录 的 论文 ,筛选 出 使 用 网 络 分 析 对 文本 进行 解构 、 分 
析 与 挖掘 的 研究 。 此 外 ,考虑 到 DSH 为 语言 学 领域 期 
TI , 较 多 关注 语言 学 ,文学 领域 ,本 文 将 鼓励 数字 人 文 
主题 研究 的 历史 领域 期 刊 Historical Methods 论文 纳入 
其 中 。 最 终 筛选 得 到 32 篇 文章 作为 研究 对 象 ,如 表 1 


表 1 文章 (研究 对 象 ) 来 源 分 布 


来 源 领域 :2021 年 影响 ”论文 数量 
因子 (所 在 区 ) /篇 
Digital Scholarship in the Humanities( DSH) LINGUISTICS : 24 
© 1.299( Q2) 
DijeGonference( DH) 6 


Historical Methods; A Journal of Quantitative HISTORY ;1. 647(Q1) 2 
QN Disciplinary History 


1^: Je : 5 
【ew | 
GG cbr) - 3 


全 近年 来 ,国内 数字 人 文 的 学 术 交流 与 出 版 活动 日 
游 繁荣 ,清华 大 学 与 中 华 书局 创办 的 《数字 人 文 》 和 中 
国 见 民 大 学 信息 资源 管理 学 院 推 出 的 《数字 人 文 研 
究 宙 8 是 数字 人 文 领域 的 专业 期 刊 ( 见 表 1) 。 考 虑 到 
这 网 本 期 刊 创刊 至 今 均 不 足 五 年 ,本 文 未 将 二 者 纳入 
编码 讨论 的 范围 。 但 上 述 两 本 期 刊 中 的 相关 研究 对 中 
文 语 境 下 的 材料 处 理 与 方法 应 用 有 着 重要 参考 价值 ， 
本 文 在 对 研究 结果 的 讨论 中 也 对 其 相关 的 8 篇 原创 论 
文 进行 了 总 结 与 归纳 。 此 外 ,欧洲 的 Journal of Histori- 
cal Network Research 是 少 有 的 聚焦 网 络 分 析 在 领域 内 
使 用 的 人 文 社 科 类 期 刊 , 自 创刊 以 来 ,5 期 均 发 表 了 历 
史 、 社 会 和 政治 科学 对 社会 网 络 分 析 方法 的 高 水 平 应 
用 实践 。 前 不 久 ,其 特刊 "Beyond Guanxi” ERHI, E 
在 向 欧美 史学 界 介 绍 近年 来 中 国 历史 网 络 的 学 术 成 
果 ,为 面向 中 文 历 史 材 料 的 网 络 分 析 提 供 了 研究 范例 ， 
故 本 文 在 讨论 中 也 将 其 考虑 在 内 。 内 容 分 析 法 建立 在 
对 文本 内 容 的 深度 解读 上 ,编码 工作 量 大 。 上 述 相关 
文献 汇集 起 来 ,已 能 达到 本 文 的 研究 目的 。 
2.2 研究 方法 

文献 内 容 分 析 法 是 定性 与 定量 相 结合 的 分 析 方 


法 , 它 以 定性 的 问题 假设 作为 出 发 点 ,通过 对 文献 内 容 
的 定量 分 析 , 找 出 能 反映 文献 内 容 的 本 质 又 易于 量化 
的 特征 ” 。 特 别 对 于 容纳 不 同学 科研 究 的 数字 人 文 领 
域 来 说 ,学 者 们 往往 具有 不 同 的 写作 习惯 ,对 于 研究 数 
据 与 方法 的 阐释 方式 也 各 不 相同 . 详 略 不 一 ,仅仅 通过 
阅读 得 出 方法 论 的 使 用 现状 并 不 容易 。 内 容 分 析 法 可 
以 将 用 语言 表示 的 文献 转换 为 用 统计 数字 描绘 的 资 
料 ,并 从 统计 数据 中 得 出 定性 的 最 终结 论 ,从 而 帮助 本 
文 对 相关 文献 有 更 深刻 、 更 精确 的 认识 。 就 学 术 文献 
而 言 , 内 容 分 析 对 象 的 主要 内 容 是 题目 .摘要 、 关 键 词 、 
参考 文献 等 书目 信息 ,但 这 些 并 不 足 达到 对 研究 问题 
的 充分 理解 与 研究 方法 的 整体 把 握 , 故 为 确保 编码 范 
围 的 完整 性 ,本文 将 文献 全 文 作 为 分 析 对 象 。 

首先 基于 对 数字 人 文 领域 研究 的 理解 ,形成 了 包 
括 研究 问题 研究 数据 、 网 络 数 据 、 网 络 类 型 与 网 络 分 
析 指 标的 5 个 主要 一 级 编码 ;其 次 ,基于 文章 内 容 , 对 
上 述 40 篇 文章 进行 了 二 级 编码 ,如 表 2 所 示 ,编码 结 
果 汇 总 可 见 第 6 节 内 容 。 由 于 编码 对 象 多 为 英文 论 
文 , 故 其 中 二 级 编码 的 名 称 选择 在 尽 可 能 多 地 汇总 相 
同 原文 描述 后 使 用 具有 概括 性 的 中 文 词 语 。 

R2 编码 范畴 

二 级 编码 
角色 人 物 功能 ,叙事 模式 /体裁 ,叙事 内 容 ,关联 发 现 ,人 
物 派别 /社区 界限 
完 数据 戏剧 ,史诗 ,信件 ,小 说 ,记录 报告 等 
络 数 据 ” 节 点 ”人物 , 词 语 ,文本 
关系 ”人 物 对 话 ,人 物 共 现 ,人 物 所 属 (派系 /社区 等 ) ,人 物 关 

注 ( 主题 等 ) ,词语 共 现 ,词语 相 邻 ,文本 相似 


网 络 类 型 角色 对 话 网 络 ,人 物 关 系 网 络 ,话语 空间 网 络 ,文化 主 
网 络 ,文本 关联 网 络 


一 级 编码 


研究 问题 


3] g 


网 络 分 析 指 标 。 点 线 大 小 , 线 、 邻 域 和 密度 ,中 心 度 .边缘 性 和 中 心 势 ， 
成 分 .核心 和 派系 ,位 置 . 集 和 和 聚 类 ,网 络 动力 和 网 络 
变迁 

其他 方法 数据 库 构 建 ,统计 描述 ,文本 到 类 ,文本 相似 计算 ,可 视 
化 展示 


在 对 相关 文献 的 编码 基础 上 ,本 文 按照 数字 人 文 
领域 网 络 分 析 研 究 开展 的 顺序 进行 分 析 , 包 括 确认 研 
究 问 题 与 来 源 文本 ( 见 第 3 节 ) 明确 节点 与 边 以 构建 
网 络 ( 见 第 4 节 ) .选用 不 同 的 指标 对 构建 的 网 络 进行 
分 析 ( 见 第 5 节 ) ,并 结合 具体 的 文献 或 不 在 本 次 编码 
范围 内 却 引起 领域 关注 的 高 水 平 文章 对 编码 结果 进行 
补充 说 明 。 最 后 ,本 文 将 DSH、DH 大 会 与 Historical 
Methods 中 的 相关 文章 与 核心 编码 进行 对 应 ,以 提供 对 
重要 文献 的 具体 分 类 ( 见 第 6 节 ) ,便于 更 直观 地 理解 
网 络 分 析 的 应 用 体系 。 
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3 常见 来 源 文 本 与 研究 问题 
3.1 来 源 文本 

数字 人 文中 的 网 络 分 析 通 常 从 定义 特定 的 文本 语 
料 库 开始 , 即 从 处 理 分 析 材料 开始 。 语料库 的 构建 是 


雷 蒂 ( Franco Moretti ) 教 授 提出 的 建立 在 对 大 量 文本 数 
据 收集 和 统计 分 析 基 础 上 的 “和 远 读 ”( Distant Reading) 
在 世界 文学 研究 中 影响 深远 ,为 小 说 社会 网 络 分 析 提 
供 了 理论 依据 与 初步 构想 。 建 立 在 对 文学 作品 角色 网 
络 的 关键 节点 ( 即 核心 角色 ) 及 其 之 间 发 生 对 话 这 一 


得 出 有 意义 的 结论 的 关键 中 ,通过 探讨 来 源 文本 的 可 
分 析 维 度 与 研究 问题 的 关联 并 定义 语料库 ,网 络 分 析 
可 以 将 定性 的 研究 问题 进行 量化 与 可 视 化 ”。 数 字 人 
文 研究 有 着 跨 学 科 的 天 然 特质 。 除 了 人 文 .艺术 ,社会 
学 研究 与 数字 人 文 研究 高 度 相关 外 ,计算 语言 学 ,应 用 
计算 机 科学 本 身 的 研究 也 与 数字 人 文 研究 有 着 紧密 的 
联系 。 这 些 研究 上 的 重合 使 得 很 难 从 学 科 偏好 上 将 
数字 人 文 研究 分 类 。 尽 管 在 研究 范式 上 各 有 不 同 ,但 
在 同类 研究 数据 上 的 探索 往往 使 得 彼此 的 研究 互 为 补 
充 3 漳 一 文本 分 析 .平行 文本 分 析 与 基于 语料库 的 分 析 
3 名所 究 思 路 是 不 同学 科 在 同类 数据 集 上 进行 尝试 的 
pe. 

数字 人 文 领域 应 用 网 络 分 析 进 行 研究 的 主要 材料 
有 :包括 戏剧 小 说 .诗歌 .散文 的 文学 作品 ,包括 信件 ， 
JE 人 文档 案 的 纪实 档案 ,包括 词典 ,百科 全 书 等 的 解 
释 精 文档 ,以 及 宗教 学 .哲学 典籍 文本 等 。 此 外 ,社交 
媒 候 的 使 用 数据 也 可 以 用 于 探索 记忆 的 传承 与 文化 的 
[2 3 如 IT. M. A. Rhodes 利用 网 络 分 析 对 YouTube 上 
民权 运动 家 保罗 ， 罗 伯 撑 (Paul Robeson) 相关 视频 的 
fe 评论 进行 分 析 , 以 揭示 保罗 罗 伯 逊 是 如 何 被 


7] 
o 


ied 


行为 基础 之 上 的 “情节 分 析 ”(Plot Analysis) "关注 文 
本 中 的 空间 与 时 间 、 网 络 社 群 集团 的 划分 .核心 人 物 的 
发 现 等 与 小 说 叙事 研究 紧密 相关 的 几 个 方面 ,以 及 基 
于 网 络 理论 解构 作品 中 人 物 对 话 与 关系 ,从 大 容量 、 
人 物 文本 中 发 现 真正 具有 和 叙事 潜能 的 关键 角色 。 

随 着 更 多 具体 的 量化 实践 的 展开 ,角色 之 间 “ 关 
系 ”的 界定 成 为 了 研究 的 难点 与 热点 ,也 使 得 基于 不 同 
题材 文学 作品 的 研究 对 “关系 "进行 不 同 的 定义 。 例 
如 戏剧 中 的 对 话 行为 几乎 代表 戏剧 行为 的 全 部 , 工 . 
Evalyn 等 将 莎士比亚 戏剧 中 角色 在 对 话 中 共 现 作为 节 
点 之 间 的 联系 ,人 物 说 话 的 次 数 作为 边 的 权重 ,通过 人 
物 交 流 网 络 来 探究 喜剧 .悲剧 和 历史 剧 的 叙事 模式 ”1 ; 
但 在 小 说 文本 中 ,对 话 并 非 叙事 的 全 部 ,一 定量 的 转述 
也 可 以 揭示 人 物 关系 的 紧密 程度 , 赵 蔽 就 在 “《 大 波 》 
三 部 曲 ” 中 通过 区 分 直接 引 语 和 间接 引 语 及 其 比重 、 区 
分 对 话 情景 来 分 析 关 键 人 物 的 叙事 功能 。 无 论 是 
小 说 .还 是 戏剧 ,从 本 质 上 说 仍 是 一 种 语言 艺术 ,将 对 
话语 言 作为 主要 分 析 变 量 时 ,能 够 直观 地 明确 作品 中 
的 话语 权 分 布 ;此 外 ,将 其 与 传统 文本 细 读 更 加 精确 、 
深入 地 结合 起 来 ,结合 一 些 重 要 的 统计 概念 在 人 物 和 
情节 研究 中 的 表现 来 探讨 相关 角色 或 文本 的 叙事 学 功 


_ 斧 统一 类 型 的 文本 常常 有 着 较为 相似 的 研究 问题 与 
路 给。 通过 将 研究 问题 进行 归纳 ,并 与 研究 数据 进行 
对 应 ,本 文 共 得 到 了 5 类 主要 研究 问题 ,分别 是 角色 功 
能 分 析 、 人 物 关 系 分 析 与 派别 归纳 、 人 氢 事 模式 与 内 容 分 
析 、 人 物 关 联 发 现 数据 库 可 用 性 评价 与 展示 。 如 表 3 


DIESE 
RI 应 用 社会 网 络 分 析 的 数字 人 文 研究 问题 与 对 象 
研究 问题 研究 对 象 
人 物 角 色 功 能 戏剧 /诗歌 
人 物 关系 与 聚 类 分 析 信件 /历史 档案 /结构 化 主题 数据 库 
叙事 模式 与 内 容 戏剧 /小 说 /信件 
关联 发 现 结构 化 主题 数据 库 


数据 库 可 用 性 评价 与 展示 一 


3.2 ”研究 问题 
3.2.1 文学 作品 中 角色 功能 分 析 

针对 文学 作品 的 网 络 分 析 是 数字 人 文 在 此 类 研究 
中 最 主要 的 议题 。 斯 坦 福 大 学 比较 文学 系 弗 兰 科 。 莫 


日 ,能 够 进 一 部 挖掘 作品 的 独特 价值 。 此 外 ,将 网 络 分 
析 应 用 于 文学 作品 也 有 助 于 研究 特定 文本 或 作者 对 一 
段 时 间 内 其 他 作品 的 影响 ”… ,并 了 解 不 同 角 色 之 间 关 
ABO UU, 
3.2.2. 人物 关系 与 聚 类 分 析 

角色 功能 分 析 是 基于 对 文学 作品 中 人 物 关 系 以 及 
人 物 对 话 的 把 握 。 但 在 其 他 材料 中 ,人 物 关系 往往 需 
要 依靠 覆盖 一 定时 间 范 围 材料 的 积累 才 可 以 获得 , 尤 
以 同样 关注 人 物 的 历史 学 研究 更 加 显著 。 自 M. C. Al- 
exander 等 调查 15 世纪 初 美 第 奇 ( Medici ) CJ lle 
开始 ,考古 学 家 和 历史 学 家 对 网 络 分 析 方法 的 兴趣 与 
日 俱 增 "”。 对 包括 信件 .历史 人 文档 案 等 纪实 档案 的 


| 


期 的 通信 和 网络"'" 、 揭 示 中 世界 苏格兰 精英 共同 见证 完 
章 起 草 的 证 人 从 属 网 络 ” ,都 在 百年 的 时 间 窗 口 下 探 
寻 人 物 关系 。 

得 益 于 诸如 中 国 历代 人 物 传记 资料 库 ( China Bio- 
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graphical Database Project , CBDB ) 等 半 结 构 化 的 历史 人 
物 传记 数据 库 的 增多 ,基于 大 规模 语 料 的 人 物 关系 分 
析 成 为 了 可 能 。 严 承 希 等 建立 了 宋代 人 物 的 政治 网 
络 , 立 述 了 宋代 政治 网 络 的 关系 演化 模式 ;张力 元 
等 通过 对 比 北宋 和 南宋 的 人 物 学 术 网 络 和 政治 网 络 ， 
对 宋朝 士大夫 思想 转变 进行 了 探析 "” 。 随 着 关系 网 
络 中 人 物 越 来 越 多 , 人物 的 聚集 与 离散 也 就 愈加 具有 
被 解读 的 价值 ,个 人 在 群体 中 的 位 置 也 成 为 了 网 络 分 
析 中 的 一 大 研究 主题 。 例 如 J.K. Ochab 等 通过 对 13 
世纪 中 叶 的 捷克 贵族 共同 见证 宪章 的 人 物 网 络 进行 取 
类 来 分 析 某 一 具体 时 间 节 点 前 后 贵族 的 聚集 情况 , 即 
叛乱 前 后 贵族 的 交往 。 

3.2.3 ”文本 叙事 模式 与 内 容 分 析 

一 追溯 社会 网 络 分 析 的 发 展 可 以 发 现 ,社会 网 络 分 
析 次 值 于 人 类 文化 价值 的 符号 体系 中 ,20 世纪 的 结构 
语言 学 和 符号 学 都 给 予 社会 网 络 研究 生长 的 圭 
域 >) 因 此 ,从 文本 中 提取 可 解释 的 符号 ,建立 虚构 形象 
的 美 系 网 络 ,发 现 文本 背后 潜在 的 叙事 意图 ,成 为 男 一 
种 走行 的 分 析 范 式 。 气 伟 云 等 近年 关注 的 报刊 研究 就 
通过 构建 词汇 概念 网 络 描绘 了 思想 史 的 重要 转变 ; 
由 让 , 也 有 学 者 分 别 构建 梁启超 和 陈独秀 的 著作 中 与 
国事 建设 主题 相关 的 30 个 词语 的 共 现 网 络 ,以 考察 二 
Jae ses um tos 。 

写 当 网 络 中 的 节点 是 单词 (或 字符 ) .词组 或 句子 
民生 相互 关系 构成 了 叙事 空间 , 且 该 网 络 往往 是 有 向 
的 e= 对 叙事 空间 的 讨论 包括 不 同体 裁 的 文本 叙事 的 差 
异 < 叙 事 单元 的 传递 性 以 及 相似 性 。 但 对 人 氢 述 单元 之 
间 讽 系 的 常用 度量 较为 单一 ,往往 使 用 共 现 频率 和 互 
信息 分 数 , 即 两 个 叙事 单元 一 起 出 现在 指定 字符 窗口 
内 的 可 能 性 ,忽略 位 置信 息 使 得 对 其 分 析 很 难 深入 到 
内 容 中 。Y. Yang 等 引入 阻力 距离 (resistance dis- 
tances) 来 描述 字符 共 现 网 络 中 的 词汇 关系 。 此 外 ， 
通过 将 叙事 单元 与 邻近 的 其 他 单元 进行 连接 ,也 可 以 
对 令 事 内 容 进行 进一步 的 探索 。 

3.2.4 ”人 物 关联 发 现 与 数据 库 可 用 性 分 析 

人 物 关联 发 现 研 究 主 要 得 益 于 各 种 结构 化 的 主题 
数据 库 , 且 通 常 没有 具体 研究 问题 指向 ,是 非常 典型 的 
数据 驱动 研究 ,也 常常 作为 数据 库 构 建 类 研究 的 应 用 
案例 。 

网 络 分 析 与 可 视 化 也 往往 是 对 数据 集 进行 评价 和 
研究 潜力 展示 的 重要 手段 。M. Levine 在 介绍 中 国 传 
记 数 据 库 ( China Biographical Database, CBD) 后 通过 两 
个 历史 网 络 分 析 案 例 说 明 CBD HARE?” SP. K. Bol 


通过 网 络 分 析 对 浙江 梧州 人 士 的 血缘 关系 与 学 术 联 系 
变迁 进行 研究 ,进一步 说 明了 CBDB 在 人 物 关 系 上 的 
深入 描述 ” 。 除 依靠 现成 数据 库 , 大 部 分 数字 人 文学 
者 仍然 需要 自 建 数据 集 用 于 研究 。 因 此 ,许多 数字 人 
文人 研究 的 重点 不 再 是 分 析 方法 与 结论 ,而 是 数据 集 构 
建 ;网 络 分 析 自 然 也 就 成 为 了 基于 部 分 数据 的 尝试 。 
J. Waxman 基于 上 千 名 巴比伦 学 者 辩论 内 容 的 《 塔 木 
德 》, 构 建 了 以 学 生 .同事 关系 为 主 的 学 术 关 系 和 包含 
HME BE SEE 13 种 学 者 间 的 互动 的 4 塔 木 德 》 数 
据 集 ,并 使 用 网 络 分 析 与 可 视 化 对 部 分 内 容 进行 了 分 
Tr^" ;同样 ,M. R. Zambrano 等 基于 历史 档案 对 厄 瓜 多 
尔 现代 建筑 进行 了 讨论 ”| 。 


4 网 络 构建 


明确 数据 基础 和 研究 问题 后 ,定义 网 络 中 的 节点 
与 边 .构建 网 络 是 此 类 研究 的 下 一 个 步骤 。 通 过 相关 
文章 中 的 网 络 类 型 与 网 络 中 节点 和 边 的 选择 ,如 表 4 
所 示 ,可 以 发 现 ,数字 人 文 领域 常见 的 网络" 有 角色 
对 话 网 络 .角色 共事 网 络 . 角 色 地 点 网 络 ` 人 物 关系 网 
络 、 人 物 归 属 网 络 .话语 空间 网 络 .文本 关联 网 络 和 文 
化 主题 网 络 。 不 难看 出 ,网 络 类 型 与 网 络 数据 与 研究 
问题 也 紧密 关联 ,但 本 章 不 再 局 限于 领域 研究 问题 ,而 
是 单纯 从 网 络 中 节点 与 边 的 内 容 对 网 络 类 型 予以 
分 析 。 


表 4 应 用 网 络 分 析 的 数字 人 文 研究 中 的 
网 络 类 型 与 网 络 数据 


网 络 类 型 主要 网 络 数据 (节点 - 边 - 节 点 ) 
角色 对 话 网 络 人 物 角色 - (发 生 对 话 ) - 人 物 角 色 
人 物 角色 - (对 话 中 提 及 ) - 人 物 角 色 
角色 共事 网 络 人 物 角 色 - (参与 同一 事件 ) - 人 物 角 色 
角色 地 点 网 络 人 物 角 色 - (到 访 同 一 地 点 ) - 人 物 角 色 
人 物 关系 网 络 AW - (场景 共 现 ) -AW 
人 物 归属 网 络 人 物 -( 所 属 ) -社区 /派系 
话语 空间 网 络 语词 - (存在 于 同一 文档 ) -语词 
语词 - (场景 共 现 ) -语词 
语词 - (左右 相 邻 ) -语词 
语词 - (引用 同一 文本 ) -语词 
文本 关联 网 络 文本 - (相似 ) -文本 
文化 主题 网 络 人 物 / 作 品 - (关注 ) - 主题 


主题 - (与 同一 人 物 相关 ) - 主题 


Un 


4.1 角色 分 析 网 络 

与 角色 人 物 功 能 研究 目标 相对 应 的 网 络 类 型 是 角 
色 对 话 网 络 .角色 共事 网 络 .角色 地 点 网 络 , 可 以 将 上 
述 三 种 网 络 归纳 为 对 文本 中 的 虚构 角色 进行 分 析 的 角 
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色 分 析 网 络 。 

角色 的 对 话 空间 是 此 类 网 络 中 角色 功能 最 显著 的 
具 化 。 角 色 对 话 网 络 中 ,节点 往往 是 人 物 ,关系 是 两 个 
人 物 之 间 发 生 对 话 ,并 通过 对 话 发 生 的 次 数 为 关系 赋 


具有 结构 的 社会 网 络 ”“! 。 此 外 ,在 大 规模 数据 的 支持 
下 ,由 人 物 之 间 互 动 而 产生 的 关系 ,也 能 观察 到 独特 的 
现象 。M.J. Hill 等 在 书目 数据 库 的 基础 上 ,构建 作者 
的 图 书 交易 网 络 , 以 洞悉 作者 的 历史 观念 及 其 背 


以 权重 。I. Pikkanen 将 1837 年 至 1869 年 在 瑞典 和 芬 
兰 出 版 的 4 部 历史 剧 人 物 作为 节点 ,人 物 之 间 发 生 过 
交流 作为 边 ,通过 4 部 戏剧 , 即 4 个 时 期 的 交流 网 络 的 
度量 指标 和 可 视 化 揭示 了 戏剧 中 的 核心 人 物 与 叙事 空 
IR], M. Kubis 在 几 百 部 小 说 的 基础 上 分 别 构建 了 
19 世纪 和 20 世纪 角色 对 话 网 络 ,并 将 说 话 者 与 对 话 中 
提 及 到 的 人 进行 了 区 分 ,以 发 现 两 个 世纪 之 间 的 小 说 
HARAR”, 
角色 共事 网 络 是 指 人 物 角 色 共 同 参与 同一 事件 。 
Payannavar 等 研究 了 参与 同一 事件 的 角色 交互 网 络 ， 
以 及 世相 认识 的 角色 对 彼此 的 观察 网 络 ” ; 许 超 等 在 
《 址 做》 标注 语 料 的 基础 上 将 人 物 与 事件 实体 通过 共 
现 网 络 表示 出 来 ,发 现 了 春秋 网 络 的 小 世界 性 。 
与 角色 地 点 网 络 则 是 角色 之 间 到 访 过 同一 地 点 。J 
S. Y: Lee 等 将 出 现在 同一 地 点 的 人 物 关联 了 起 来 s 
郭 侍 欣 等 不 仅 构建 了 《长 安 十 二 时 层 ) 的 “角色 - 地 
总 全 络 以 解析 人 物 集体 的 活动 范围 和 场所 ,还 通过 
"ED - 地 点 "网 络 分 析 地 点 的 转移 和 关联 ,其 中 边 的 
楼 生 与 各 节点 之 间 联 系 的 紧密 程度 相关 。 此 外 ,还 有 
将 等 色 在 同一 场景 下 共 现 作为 节点 之 间 的 联系 9 ,本 
诺 攻 将 其 纳入 角色 地 点 网 络 之 中 ,此 时 的 地 点 可 以 视 
为 谋 构 的 “地 点 ”。 
4022. 人 物 关系 网 络 
人物 关 系 网 络 以 基于 事实 与 多 重 可 参考 材料 的 人 
物 与 人 物 之 间 的 各 种 关系 作为 依据 ,主要 有 两 类 网 络 ， 
第 一 类 网 络 描述 了 包含 人 物 与 人 物 场景 共 现 的 直接 关 
系 网 络 ;第 二 类 网 络 描述 了 人 物 与 其 所 属 社区 (或 派 
系 ) 的 关系 。 

人 与 人 的 关系 种 类 众多 ,亲属 关系 学术 关系 、 政 
治 关系 都 是 常见 的 分 析 维 度 。W. Shang 将 《 世 说 新 
语 ) 中 的 人 物 作为 网 络 节 点 ,每 个 故事 中 人 物 的 共 现 作 
为 边 ,并 通过 将 人 物 关系 分 为 以 表现 两 人 之 间 有 事实 
层面 的 直接 积极 关系 和 表现 为 认同 尊重 的 态度 或 交 
游 .对 答 学术 交 流 、 同 僚 、 礼 让 、 安 慰 等 程度 较 轻 的 正 
面 互 动 关系 ,并 赋予 不 同 的 权重 ,以 研究 东晋 贵族 的 社 


EU ;李惠 等 将 曾国藩 和 与 他 有 书信 往来 的 人 关联 在 
一 起 ,从 个 人 书信 网 络 中 挖掘 名 人 群体 的 人 脉 网 络 ,分 
Ar Es EA Fs] HE LR AIO RU 

人 物 与 所 属 派系 的 关系 网 络 常常 通过 现 有 所 属 关 
系 探析 新 的 人 物 集团 的 划分 。J J. Yoo 通过 朝鲜 王朝 
“诗人 -诗歌 社区 网 络 ” 与 “诗人 - 诗歌 派系 网 络 "发 
现 跨 派系 的 诗人 交往 和 诗歌 社区 的 聚集 与 重 芝 ”| 。 

此 外 ,人 物 与 其 他 内 容 的 直接 相 联 也 对 于 确定 “人 
物 集团 "有 着 重要 参考 价值 ,如 H. L. Xiong 将 人 物 与 职 
官 进行 关联 ,以 试图 描绘 宋朝 精英 在 “书院 育才 ”的 政 
策 下 的 晋升 之 路 。 

4.3 话语 空间 网 络 

话语 空间 网 络 是 文字 (或 单词 ) 和 词语 的 网 络 , 包 
括 语词 与 语词 的 场景 (或 段落 ) 共 现 网 络 .语词 搭配 网 
络 ,词语 衍生 网 络 。 

分 析 语词 在 同一 段落 或 句子 的 共 现 网 络 是 最 常 
见 、 也 是 最 理想 的 探索 给 定 文本 集合 整体 语义 结构 的 
方式 之 一 。 共 现 意 为 “在 恒定 大 小 的 上 下 文 窗口 内 出 
现 的 成 对 术语 之 间 的 关系 ”” ,窗口 可 以 是 任意 长 度 
的 文本 一 一 一 定数 量 的 字符 或 单词 一 个 句子 BE 
落 或 整个 文档 。 窗 口 大 小 的 设置 往往 取决 于 一 个 文档 
中 预计 有 多 少 主题 ,小 说 习惯 上 把 文本 分 割 为 较 小 的 
模块 ,以 捕捉 随 着 故事 而 展开 的 短暂 主题 ;诗歌 虽 用 词 
简洁 ,但 每 个 词 都 有 相当 独立 的 语义 表达 ,将 每 个 句子 
看 作 一 个 窗口 是 一 种 颇 为 有 效 的 方式 ;新 闻 等 纪实 报 
道 类 短文 本 总 是 围绕 一 个 主题 ,基于 整个 文档 进行 语 
词 共 现 分 析 更 为 明智 。D. Gamermann 等 将 《小 王子 》 
中 的 单词 作为 节点 ,将 单词 共 现在 一 个 句子 和 一 个 名 
子 的 两 个 单词 之 间 存 在 相同 的 第 三 个 单词 作为 边 , 构 
建 了 两 个 单词 共 现 网 络 ,来 分 析 不 同 语言 的 《小 王子 》 
译本 中 单词 的 使 用 ” C. Lee 基于 404 条 新 闻 报 导 选 
出 了 100 个 高 频 词 ,并 用 高 频 词 在 同一 文档 中 出 现 作 
JAZAK. 

语词 搭配 网 络 即 语词 与 左右 相 邻 语词 构成 的 词组 
网 络 ;语词 衍生 网 络 则 是 由 具有 共同 构成 (如 英文 中 的 


交 网 络 ” 。 即 便 不 对 人 物 关系 进行 明确 ,人 物 关 联网 
络 仍然 具有 适用 性 。C. Armand 将 民国 人 物 标记 为 节 
点 , 当 A 的 传记 中 出 现 B, 则 添加 A 到 B 的 有 向 边 ,并 
检验 人 物 是 否 基于 共享 属性 ( 省 级 出 映 、 教 育 等 ) 形 成 


词根 ) 词 语 构成 的 网 络 ,二 者 同 是 语料库 语言 学 方法 论 
的 衍生 。 语 料 库 语言 学 通过 对 大 量 的 真实 语言 材料 的 
分 析 和 统计 来 建立 自然 语言 处 理 规则 ,主要 应 用 于 教 
学 .翻译 .词汇 .词义 .词典 和 语法 等 领域 ,关注 宏观 ( 整 
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个 语料库 语言 特征 与 文本 类 型 ) 和 微观 (具体 的 词汇 
和 语法 等 语言 现象 ) 两 个 方面 ,有 助 于 对 历史 文本 
和 话语 的 解释 。 网 络 分 析 对 宏观 与 微观 上 层面 的 
研究 予以 了 支持 。H. Bonin 对 英国 议会 的 辩论 内 容 进 
行 分 析 , 用 "人民 ”(people ) 与 “民主 ”( democracy 或 de- 
mocra * ) 二 词 左右 相 邻 的 词组 成 了 词语 搭配 网 络 以 对 
民主 概念 的 转变 进行 分 析 "*” ; 国内, 抒 伟 云 也 将 《新 青 
年 ) 中 的 与 “政治 "一 词 相 关联 的 字 词 概念 进行 了 关 
K, ANEN E, J. Longhi 汇编 了 11 位 2017 
年 总 统 候选 人 官方 账户 发 布 的 推 文 ,并 将 出 现在 同一 
推 文中 的 islam 及 其 派生 词 进行 关联 ,以 强调 话语 分 析 
在 分 析 假 新 闻 的 时 候 至 关 重要 "1。 
4.4 文本 关联 网 络 
本 文本 关联 网 络 关 注 的 是 段落 和 篇 章 , 它 们 之 间 的 
联系 是 不 同文 本 之 间 的 相似 性 ,相似 性 的 大 小 决定 了 
边 的 权重 。 为 了 构建 这 类 网 络 ,往往 需要 先 对 文本 进 
WH, G. Rotari 等 把 格林 兄弟 的 每 一 封 信件 作为 节 
起 3 莓 出 现 常用 词 共 现 的 信件 关联 起 来 ,并 通过 余弦 增 
量 应 用 于 50 - 150 个 最 常用 词 的 标准 分 数 (z-score) 来 
确定 信件 之 问 的 相似 性 ( 即 边 的 权重 ) ,以 分 析 格 林 兄 
冲 写 作风 格 的 异同 和 他 们 写作 风格 在 其 职业 或 个 人 发 
EDHE. 
文本 共识 网 络 的 节点 同样 由 文本 或 文本 样本 表 
示 3 点 之 间 的 连结 可 通过 两 种 方式 建立 。 第 一 种 方 
式 通 过 计算 样本 之 间 的 文本 距离 ,为 每 个 节点 建立 一 
个 瞪 其 最 近 节 点 的 最 强 链接 和 两 个 与 其 次 近 节 点 的 较 
弱 链 接 ;第 二 种 方式 是 对 不 同 范 围 的 常用 词 重复 上 述 
过 禹 多 次 ,并 且 将 每 次 迭代 产生 的 网 络 以 类 似 于 共识 
树 分 析 的 方式 组 成 单个 共识 网 络 。C，Lee 基于 英语 小 
说 和 韩语 小 说 构建 了 作者 和 翻译 者 共识 网 络 ,以 识别 
不 同 作者 和 翻译 者 的 文本 风格 。 
4.5 文化 主题 网 络 

文化 主题 网 络 不 同 于 上 述 几 类 网 络 , 它 强调 社会 
互动 与 关系 能 够 以 某 种 方式 调节 各 类 社会 现象 的 结构 
与 能 动 性 。1990 年 纽约 学 派 将 网 络 与 文化 之 间 的 联 
系 区 分 为 四 种 研究 :作为 文化 渠道 的 网 络 ,作为 形 塑 广 
化 的 网 络 .文化 形式 的 网 络 和 文化 互动 网 络 ”。 但 在 
具有 强 实践 性 的 数字 人 文 研究 中 ,社会 学 领域 的 详细 
划分 还 尚未 涉及 。 在 这 里 ,文化 常常 被 解构 为 概念 , 赵 
势 , 或 外 化 为 物品 上 的 叙事 属性 ;通过 聚 类 以 挖掘 这 些 
元 素 的 聚集 与 主题 。L. Ciagnolini 等 在 研究 关于 艺术 
史学 家 丰富 的 传记 档案 基础 上 ,构建 了 “历史 学 家 - 关 
注 主题 "网 络 .共同 工作 于 同一 机 构 的 “历史 学 家 - 历 


史学 家 ”网络 ,来 发 现 艺术 史 社区 中 的 关系 ,进一步 发 
现 文化 的 流动 ” ;S. Milonia 等 通过 “歌曲 - 歌曲 ”网 
络 观察 音乐 模仿 如 何 揭示 中 世纪 浪漫 抒情 诗 的 相互 关 
WR A JU 。 


5 网 络 分 析 指 标 与 工具 


按照 不 同 的 划分 依据 ,网 络 分 析 指 标 有 不 同 的 分 
类 。 依 据 整 体 网 络 和 局 部 网 络 的 划分 ,可 以 将 相关 的 
指标 分 为 全 局 指标 和 局 部 指标 。 但 在 具体 使 用 的 时 
候 , 这 两 者 往往 会 同时 使 用 ,因此 依据 描述 的 目的 可 将 
这 些 指标 划分 为 五 类 描述 指标 。 
5.1 全 局 属性 和 局 部 属性 

网 络 集中 度 测量 的 历史 可 以 追溯 到 半 个 多 世纪 以 
前 ,但 与 更 为 客观 和 可 靠 的 视觉 解释 不 同 , 网 络 的 度量 
结果 十 分 需要 依据 上 下 文 解读 。 

如 表 5 所 示 的 全 局 属性 的 统计 分 析 可 以 一 次 比较 
多 个 维度 的 网 络 “。 例 如 ,比较 相同 类 型 的 不 同 网 络 
的 节点 和 边 的 数量 “是 一 种 可 直接 解读 排名 的 工具 。 
除 此 之 外 ,网 络 密度 (与 节点 相关 的 边 数 ) 与 测量 平均 
路 径 长 度 在 分 析 人 物 网 络 时 十 分 有 效 。 

表 5 社会 网 络 分 析 中 的 全 局 属性 和 局 部 属性 

属性 类 型 

全 局 属性 


包含 指标 


节点 数量 ( graph size-nodes ) 


边 数 量 ( graph size-edges ) 

网 络 密度 ( density ) 

网 络 直 径 ( diameter) 
平均 路 径 长 度 (average path length) 


连通 性 (connectedness ) 
集群 /社区 (clusters/communities) 
全 局 /平均 集聚 系数 (clustering coefficient) 


某 一 节点 的 连通 性 (connectivity-degree) 


局 部 属性 
中 介 中 心性 (betweenness) 
接近 中 心性 (closeness) 
特征 向 量 中 心 (eigenvector centrality ) 
局 部 集聚 系数 (local clustering coefficient) 
最 短路 径 (shortest path) 


派 (cliques ) 


局 部 度量 中 , 度 ( 相 邻 节 点 的 数量 ) 是 最 简单 的 中 
心性 指标 , 且 在 20 世纪 50 年 代 末 至 20 世纪 70 年 代 
初 ,该 指标 是 唯一 系统 使 用 的 指标 ,随后 才 发 展 出 更 加 
多 样 化 的 度量 。 它 的 简单 性 使 得 其 的 解读 十 分 明 
确 ,例如 在 文学 网 络 中 , 度 计算 的 可 以 是 一 个 人 物 与 另 
一 个 人 物 说 话 的 次 数 。 中 介 中 心性 (betweenness cen- 
trality ) 的 概念 打破 了 网 络 " 中心 "可 能 由 什么 组 成 的 概 
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念 ,在 揭示 连接 不 同 子 网 络 的 能 力 上 很 受 欢 迎 。 中 介 
性 与 流通 概念 紧密 相关 , 它 通过 计算 最 短路 径 以 检测 
能 够 打开 或 锁定 网 络 某 些 部 分 的 中 间 "桥梁 "或 “关键 
通道 "。 因 此 ,根据 应 用 场合 ,这 些 位 置 既 是 网 络 中 最 
具 权 力 的 位 置 ,换言之 ,也 是 脆弱 的 位 置 。 接 近 中 心性 
(closeness centrality) 允许 节点 在 具有 一 定 密度 、 且 尚 
未 划分 派 的 网 络 中 相当 平均 地 分 布 ,并 且 可 以 在 “中 
心 " 和 “外 围 ” 的 概念 中 转化 。 特 征 向 量 中 心性 (eigen- 
vector centrality ) 的 解释 相对 困难 许多 ,并 且 在 很 大 程 
度 上 取决 于 节点 周围 的 结构 ,但 其 在 尝试 分 析 图 中 节 
点 的 层次 结构 时 特别 有 用 ;同时 特征 向 量 中 心性 也 
是 PageRank 算法 的 依据 。 

5.2 5 类 网 络 分 析 指 标 

二 在 描述 网 络 特征 时 , 即 可 以 描述 每 个 点 的 特征 ,又 
可 友和 把 该 网 络 看 成 一 个 整体 ,描述 整个 网 络 的 特征 。 
水 贸 通过 对 相关 文章 进行 编码 ,将 上 述 指标 划分 为 
舍 居 次 一 构成 密度 ,中心 度 派系 和 结构 ,相关 论文 
对 日 述 指标 的 使 用 频率 如 表 6 所 示 : 

T X6 网 络 分 析 指标 应 用 频率 

Rao MAUHMBMO 。 MUROS 
VIRC 边 ` 大 小 ) 68.8 

C 度 ( 线 、 邻 域 和 密度 ) 46.9 


Al. - 
ape Crap He ,边缘 性 和 中 心 势 ) 50.0 
派系 (成 分 .核心 和 派系 ) 46.9 


ERURUR2S) 21.9 


绕 着 一 个 点 而 建立 , 即 一 个 网 络 图 向 核心 靠拢 的 程度 。 
“中 心 度 ”" 和 “中心 势 "都 是 对 节点 能 力 的 量化 视角 ,中 
介 中 心性 .接近 中 心性 ,特征 向 量 中 心 是 衡量 上 述 视角 
的 关键 。 

(4) 派系 。 成 分 、 核 心 和 派系 是 关于 网 络 中 子 群 
的 研究 。 尝 试 发 现 网 络 可 以 分 为 多 少 类 派 、 聚 类 (clus- 
ters) .成 分 (componcents ) „4% ( cores ) | [S] F ( circles ) 等 
都 是 在 挖掘 网 络 中 的 子 图 ,而 子 图 的 依据 是 点 的 关联 
性 与 关系 的 紧密 程度 。 这 些 子 图 往往 为 研究 者 们 提供 
节点 分 类 的 参考 。 

(5) 结 构 。 人 位置. 集 和 和 聚 类 的 分 析 包 括 点 的 结 
构 对 等 性 规则 对 等 性 、 聚 类 、 块 模型 等 内 容 。 对 节点 
位 置 的 探讨 往往 已 经 超越 了 图 论 的 原则 ,是 对 集合 的 
结构 分 析 ; 当 被 应 用 于 数字 人 文 研 究 时 ,往往 能 够 使 得 
对 个 案 的 探究 衍生 到 同类 情况 的 判定 。 
5.3 网 络 分 析 工具 

被 学 界 和 行业 广泛 认可 并 使 用 的 网 络 分 析 工 具有 
许多 ,Neo4j , Cytoscape , Gephi , Pajek JUNG 等 工具 都 在 
知识 发 现 ,信息 融合 \ 可 扩展 性 和 可 视 化 方面 有 着 不 错 
的 表现 '“] 。Gephi ,一 个 在 NetBeans 平台 上 用 Java 编 
写 的 开源 网 络 分 析 和 可 视 化 软件 包 , 由 于 其 在 可 视 化 
方面 出 色 的 表现 能 力 ,被 数字 人 文学 者 广泛 使 用 。 但 
由 于 Gephi 在 对 网 络 指标 计算 支持 上 的 薄弱 ,通常 需 
要 搭配 UCINET 这 样 的 社会 网 络 分 析 软 件 或 R Python 
这 样 的 程序 语言 。 

随 着 越 来 越 多 拥有 人 文学 科 背 景 的 研究 人 员 介入 
数字 人 文 领域 ,许多 数字 人 文 研究 平台 也 为 不 具有 计 
算 机 编程 习惯 的 学 者 提供 了 网 络 可 视 化 与 分 析 工 具 ， 


节点 \ 以 及 一 个 节点 关联 了 多 少 其 他 的 节点 的 统计 ,是 
基于 网 络 构成 予以 描述 的 最 常见 指标 。 研 究 者 可 以 通 
过 对 个 别 节点 的 解释 与 网 络 可 视 化 对 特别 的 节点 进行 
描绘 。 

(2) 密 度 。 本 次 编码 的 论文 中 ,几乎 47% 的 研究 
都 对 线 、 邻 域 和 密度 进行 了 分 析 , 即 对 网 络 空间 大 小 进 
行 了 进一步 描述 , 故 本 文 使 用 最 能 表示 此 类 节点 的 密 
度 一 词 予以 概括 上 述 三 类 指标 。 网 络 密度 、 网 络 直径 、 
平均 路 径 长 度 和 某 一 节点 的 连通 性 是 分 析 的 核心 
依据 。 

(3) 中心 度 。 半 数 的 研究 都 探讨 了 中 心 度 .边缘 


如 斯 坦 福 大 学 的 在 线 网 络 可 视 化 工具 Palladio?" 1 ,能 够 
让 用 户 轻松 上 传 数据 以 展开 网 络 分 析 ; DocuSky 数字 
人 文 研究 平台 更 是 提供 了 具有 4 种 分 析 方式 的 中 文 文 
AK UR F 28 43r 。 


6 文献 分 类 


在 了 解 了 常见 研究 问题 文本 数据 、 网 络 类 型 与 分 
析 指 标 后 ,本 文 得 出 了 数字 人 文 研究 使 用 网 络 分 析 进 
行 实践 的 应 用 框架 ;通过 相关 文章 与 核心 编码 对 应 , 即 
对 重要 文献 的 具体 分 类 ,一 方面 可 以 便于 更 直观 地 理 
解 文献 详情 , 另 一 方面 也 验证 了 上 述 讨论 的 内 容 的 适 


性 和 中 心 势 。 在 对 每 个 点 的 特征 进行 描述 时 ,计算 与 


用 性 与 覆盖 面 。 来 源 文 本 的 特征 虽 是 进行 量化 分 析 的 


该 点 有 直接 联系 的 其 他 点 有 多 少 是 一 种 重要 的 分 析 角 


根本 依据 ,但 其 种 类 的 繁多 与 差异 并 不 影响 对 方法 论 的 


度 , 这 个 值 就 是 “中 心 度 ” ;在 对 整体 网 络 的 特征 进行 
描述 时 ,通过 “中 心 势 " 来 反映 该 网 络 在 多 大 程度 上 围 


探讨 ;而 数据 规模 是 决定 量化 方法 使 用 的 上 限 。 故 本 文 
将 相关 文献 区 分 为 单一 文本 分 析 ,平行 文本 分 析 与 基于 
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语料库 的 分 析 三 类 研究 。 具 体 文献 分 类 见 表 7。 
6.1 单一 文本 分 析 

在 对 单一 文本 分 析 时 ,对 所 构建 网 络 的 冰释 至 关 
重要 ,往往 需要 结合 现 有 研究 与 材料 产生 背景 综合 判 
定 。 由 于 数据 量 较 少 ,网 络 中 的 节点 与 边 也 相对 较 少 ， 
通常 从 点 . 边 .大 小 来 展开 的 网 络 可 视 化 分 析 和 从 线 、 
邻 域 和 密度 ,中 心 度 .边缘 性 与 中 心 势 两 个 层面 展开 描 
述 性 分 析 已 足够 。 此 外 ,结合 多 种 分 析 方法 对 单一 文 
本 进行 深入 挖掘 也 是 此 类 研究 展开 的 必要 条 件 。V 
H. Masías 等 在 加 权 网 络 的 基础 上 使 用 K-means 聚 类 对 
《罗密欧 与 朱丽叶 ) 中 的 角色 进行 分 析 ,其 中 仅 选 用 了 
接近 中 心性 作为 加 权 网 络 的 重要 指标 "1。 
6.2 平行 文本 分 析 
二 = 两 个 相似 的 文本 或 同一 作品 的 不 同 语言 翻译 版 本 
对 轨 分 析 都 可 以 看 作 是 基于 平行 文本 的 分 析 。 随 着 网 


络 中 节点 和 边 的 数量 增多 ,派系 (或 凝聚 子 群 ) 的 生成 
与 描述 成 为 了 对 比分 析 的 重要 参考 。Y. Fang 等 通过 
《爱丽 丝 梦 游 仙 境 》 的 三 个 中 文 译本 中 的 话语 空间 网 
络 凝 聚 子 群 分 析 来 探讨 译 者 的 风格 ” 。 

6.3 语料库 分 析 ( 包括 双语 料 库 对 比分 析 ) 

无 论 是 作者 自己 构建 语料库 还 是 基于 现 有 数据 库 
进行 研究 ,充足 的 数据 使 得 网 络 分 析 方法 能 够 有 更 多 
的 施展 空间 。 对 比分 析 依 然 是 常用 的 手段 ,T.Y. Lim 
等 将 由 普 拉 斯 的 224 首 诗歌 作品 所 构建 的 话语 空间 网 
络 与 由 塞 克 斯 顿 的 280 首 诗歌 作品 构建 的 话语 空间 网 
络 进行 对 比 ,通过 重要 节点 ,节点 连通 量 .中 介 中 心性 、 
特征 向 量 中 心性 、 凝 聚 子 群 等 各 层面 指标 观察 人 称 代 
词 与 情感 词 网 络 ,此 外 还 使 用 了 结构 主题 模型 来 识别 
代表 每 个 主题 的 一 组 词 “。 


< 表 7 编码 文献 分 类 
Dam SEEN RN 
e» see 文献 来 源 ep TETTE Eo ETT 
联网 络 系 网 络 间 网 络 联网 络 题 网 络 
TS 单一 文本 分 析 H. A. Algee-Hewitt [64] : 
bae V. H. Masías 等 [61] " : 
^h. M. Zhitomirsky-Geffet 4657 á : 
e J. Waxman 261 ^ . 
N 平行 文本 分 析 C. Ruegg 等 [66] . . : . 
E D. Gamermann 等 [4!] . . 
2 Y. Fang 4162] " i i : 
EELEE 。 对 比分 析 L. Evalyn i? . 
© M. Kubis 等 [97] : 
c G. Rotari 等 [2] A . . 
e C. Lee [68] " " : 
T T. Y. Lim 416] . , i 
整体 分 析 M.J. Hill 等 136] , . 
W. LiL69) : f 
T. Haider 等 [70] 7 : E . 
J. J. Yoo [38] . . . 
M. T. Santa María 等 [33] " " s . 
I. Pikkanen 28) m : i 
M. Kubis 797 " ， . . 
C. Jackson 17] : . 
J. K. Ochab 20) * i : . 
A. La Parra-Pereza 等 [71] " . i 
D. M. Brown 等 [72] " g . 
S. Milonia 等 [52] n . ' 
C. Leel4?] & . 
J. Ledolter 41731, H. Bonin [45] à : 
M. R. Zambrano 等 [27] 
J. Longhi 41 " : 
Y. Yang 412] : . i 
L. Giagnolini a [51] $ . 
II. M. A. Rhodes 7! 1 : ' 
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7 _ 未 来 挑战 

近年 来 , 随 着 “新 文科 ”建设 推进 ,数字 人 文 在 中 
国 发 展 迅速 , 带 来 了 材料 和 议题 的 拓展 ,也 为 人 文 社 科 
领域 注入 了 新 活力 。 本 文 聚焦 于 特定 方法 的 应 用 ,发 
现 国内 外 的 数字 人 文 研究 虽 不 设 边界 ,但 也 充满 挑战 ， 
往往 历时 漫长 ,难以 一 跳 而 就 。 即 便 研究 者 在 进行 实 
践 探索 时 有 着 许多 需要 注意 的 内 容 ,如 理论 和 标准 的 
探讨 .研究 的 “ 效 度 "与 “ 信 度 ” ,但 仍然 有 一 些 具体 的 
问题 值得 我 们 考虑 ,它们 作为 当下 研究 的 难点 与 挑战 
为 我 们 未 来 研究 提供 了 具体 指引 。 
7.1 数据 复 用 

近年 来 ,使 用 网 络 分 析 的 数字 人 文 研究 越 来 越 多 ， 
网 络 分 析 范 式 在 方法 论 层面 的 实践 却 没有 逐步 深入， 
只 和 通过 将 其 应 用 于 不 同 的 材料 与 文本 中 解决 类 似 的 
问题 。 从 论文 的 篇 章 结构 也 能 看 出 ,即便 是 方法 实践 


领域 基础 设施 被 频繁 提起 ,而 社会 网 络 分 析 作 为 有 效 
的 量化 与 可 视 化 手段 取得 了 较 多 的 成 果 。 但 国内 外 尚 
未 见 到 对 该 方法 在 数字 人 文 领域 应 用 的 系统 化 总 结 与 
归纳 。 故 文本 通过 内 容 分 析 法 ,在 领域 期 刊 与 会 议 的 
40 多 篇 论文 的 基础 上 对 此 类 方法 的 应 用 情况 予以 分 
析 , 为 数字 人 文 领域 应 用 网 络 分 析 方 法 提供 一 个 指导 
框架 。 

通过 对 国内 外 数字 人 文 领域 的 网 络 分 析 研 究 进 行 
梳理 ,本 文 得 到 了 SNA 在 数字 人 文 领域 应 用 的 结构 框 
架 ,该 框架 从 使 用 数据 研究 问题 网络 类 型 和 分 析 ` 数 
据 规模 几 个 方面 对 网 络 分 析 的 领域 应 用 进行 概括 。 其 
中 ,较为 常见 的 研究 问题 可 分 为 5 类 ,分 别 是 角色 功能 
分 析 . 人 物 关系 分 析 与 派别 归纳 、 叙 事 模 式 与 内 容 分 
析 、 人 物 关 联 发 现 , 数 据 库 可 用 性 评价 与 展示 ;同时 , 根 
据 节 点 与 边 的 不 同 可 进一步 将 "网 络 类 型 " 总结 为 角 
色 分 析 网 络 , 人 物 关联 网 络 .话语 空间 网 络 .文本 关联 


多 洲 究 ,研究 者 们 仍然 将 精力 较 多 地 放 在 了 数据 集 构 
建 区。 因此 ,如 何 利用 并 共享 现 有 的 数据 集 以 促进 基 
玉 更 多 材料 .更 深层 次 研究 问题 的 探索 以 及 网 络 分 析 
范式 的 拓展 成 为 了 数字 人 文 领域 未 来 的 挑战 ,同时 这 
其 多 成 为 数字 人 文 研究 边界 的 又 一 次 拓展 。 让 人 欣慰 
的 电 , 越 来 越 多 的 半 结构 化 或 结构 化 主题 数据 集 的 开 
旗 伪 得 数字 人 文学 者 凭 一 人 之 力也 可 以 完成 横 跨 不 同 
时 到 的 研究 课题 。 中 央 华 盛 顿 大 学 的 M. Levine 就 在 


WP 


所 有 节点 都 为 同一 类 型 的 网 络 称 为 “一 模 网 络 ” 
(1-mode network ) ;节点 分 为 两 类 的 网 络 称 为 “二 分 网 
络 ”( bipartite network ) 或 “二 模 网 络 ”(2-mode net- 
work) ;包含 更 多 类 别 节 点 的 网 络 则 称 为 多 模 网 络 
(multi-mode network) 。 由 于 网 络 分 析 工 具 的 限制 , 许 
多 学 者 不 得 不 将 二 模 网 络 拆 分 为 多 个 一 模 网 络 以 进行 
4) Pr ,通过 对 比 得 出 结论 ;面向 多 模 网 络 的 分 析 更 是 少 
之 又 少 。 以 较为 普遍 的 成 分 .核心 和 派系 来 说 ,多 模 网 
络 的 派系 发 现 主要 有 基于 主题 模型 的 方法 、 基 于 排序 
和 聚 类 相 结 合 的 方法 、 基 于 数据 重 构 的 方法 和 基于 降 
维 的 方法 ”。 这 些 方 法 无 一 都 对 数字 人 文 研究 提出 
了 更 多 的 要 求 ,但 也 为 其 带 来 了 更 多 可 能 性 。 


8 结语 


随 着 数字 人 文 研究 的 兴起 ,数据 与 方法 作为 两 类 


网 络 和 文化 主题 网 络 ;此 外 ,通过 两 种 指标 规模 (全 局 
指标 和 局 部 指标 ) 和 5 个 层面 的 分 析 指标 (构成 、 密 度 、 
中 心 度 .派系 和 结构 ) ,本 文 得 以 将 研究 实践 的 分 析 过 
程 与 研究 问题 关联 ,进一步 丰富 该 框架 的 解释 性 。 该 
框架 不 仅 有 助 于 理解 SNA 对 数字 人 文 研究 的 可 用 性 、 
贡献 等 ,还 为 研究 人 员 找 到 适合 的 挖掘 和 分 析 角 度 ,在 
方法 论 层面 的 探索 提供 支持 。 
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Ione of the most widely used directions in the field of digital humanities. A systematic summary and induction of the 


Abstract: | Purpose/Significance | Network analysis is an effective analysis method and visualization method , 


"application of network analysis in the field of digital humanities will help the digital humanities researchers quickly i- 
dentify the capabilities and limitations of network analysis, and to carry out deeper research practice. | Method/ 
Process] In this study, we adopted content analysis to summary the papers published in the most influential journals 
the international digital humanities field and International Digital Humanities Conference in the past five years. 
Qi from the five perspectives of research question, dataset, network special characteristics and network analysis 
metrics, the organization system for the application of network analysis methods in the field of digital humanities was 
finally extracted. | Result/Conclusion | The organizational structure includes three kinds of data scale (including 
single text analysis, parallel text analysis and corpus analysis) , five application scenarios ( containing characters a- 
nalysis network, people relation network, words semantic network, text relevancy network and culture topic net- 
work) , two scales of indicators (including global indicators and local indicators) , and five types of metrics (like 
composition, density, centrality, clique and structure). 
social network analysis | content analysis 
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